智能论文笔记

Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a Polynomial Net Study

Yongtao Wu , Zhenyu Zhu , Fanghui Liu , Grigorios G Chrysos , Volkan Cevher

分类：机器学习 | 人工智能

2022-09-16

神经切线内核（NTK）是分析神经网络及其泛化界限的训练动力学的强大工具。关于NTK的研究已致力于典型的神经网络体系结构，但对于Hadamard产品（NNS-HP）的神经网络不完整，例如StyleGAN和多项式神经网络。在这项工作中，我们为特殊类别的NNS-HP（即多项式神经网络）得出了有限宽度的NTK公式。我们证明了它们与关联的NTK与内核回归预测变量的等效性，该预测扩大了NTK的应用范围。根据我们的结果，我们阐明了针对外推和光谱偏置，PNN在标准神经网络上的分离。我们的两个关键见解是，与标准神经网络相比，PNN能够在外推方案中拟合更复杂的功能，并承认相应NTK的特征值衰减较慢。此外，我们的理论结果可以扩展到其他类型的NNS-HP，从而扩大了我们工作的范围。我们的经验结果验证了更广泛的NNS-HP类别的分离，这为对神经体系结构有了更深入的理解提供了良好的理由。

translated by 谷歌翻译

Bayesian Active Learning for Scanning Probe Microscopy: from Gaussian Processes to Hypothesis Learning

Maxim Ziatdinov , Yongtao Liu , Kyle Kelley , Rama Vasudevan , Sergei V. Kalinin

分类：机器学习

2022-05-30

机器学习方法的最新进展以及扫描探针显微镜（SPMS）的可编程接口的新兴可用性使自动化和自动显微镜在科学界的关注方面推向了最前沿。但是，启用自动显微镜需要开发特定于任务的机器学习方法，了解物理发现与机器学习之间的相互作用以及完全定义的发现工作流程。反过来，这需要平衡领域科学家的身体直觉和先验知识与定义实验目标和机器学习算法的奖励，这些算法可以将它们转化为特定的实验协议。在这里，我们讨论了贝叶斯活跃学习的基本原理，并说明了其对SPM的应用。我们从高斯过程作为一种简单的数据驱动方法和对物理模型的贝叶斯推断作为基于物理功能的扩展的贝叶斯推断，再到更复杂的深内核学习方法，结构化的高斯过程和假设学习。这些框架允许使用先验数据，在光谱数据中编码的特定功能以及在实验过程中表现出的物理定律的探索。讨论的框架可以普遍应用于结合成像和光谱，SPM方法，纳米识别，电子显微镜和光谱法以及化学成像方法的所有技术，并且对破坏性或不可逆测量的影响特别影响。

translated by 谷歌翻译

BEV-MAE: Bird's Eye View Masked Autoencoders for Outdoor Point Cloud Pre-training

Zhiwei Lin , Yongtao Wang

分类：计算机视觉

2022-12-12

Current outdoor LiDAR-based 3D object detection methods mainly adopt the training-from-scratch paradigm. Unfortunately, this paradigm heavily relies on large-scale labeled data, whose collection can be expensive and time-consuming. Self-supervised pre-training is an effective and desirable way to alleviate this dependence on extensive annotated data. Recently, masked modeling has become a successful self-supervised learning approach for point clouds. However, current works mainly focus on synthetic or indoor datasets. When applied to large-scale and sparse outdoor point clouds, they fail to yield satisfactory results. In this work, we present BEV-MAE, a simple masked autoencoder pre-training framework for 3D object detection on outdoor point clouds. Specifically, we first propose a bird's eye view (BEV) guided masking strategy to guide the 3D encoder learning feature representation in a BEV perspective and avoid complex decoder design during pre-training. Besides, we introduce a learnable point token to maintain a consistent receptive field size of the 3D encoder with fine-tuning for masked point cloud inputs. Finally, based on the property of outdoor point clouds, i.e., the point clouds of distant objects are more sparse, we propose point density prediction to enable the 3D encoder to learn location information, which is essential for object detection. Experimental results show that BEV-MAE achieves new state-of-the-art self-supervised results on both Waymo and nuScenes with diverse 3D object detectors. Furthermore, with only 20% data and 7% training cost during pre-training, BEV-MAE achieves comparable performance with the state-of-the-art method ProposalContrast. The source code and pre-trained models will be made publicly available.

translated by 谷歌翻译

Differentiable Architecture Search with Random Features

Xuanyang Zhang , Yonggang Li , Xiangyu Zhang , Yongtao Wang , Jian Sun

分类：计算机视觉

2022-08-18

可区分的架构搜索（飞镖）大大促进了NAS技术的发展，因为其搜索效率很高，但遭受了性能崩溃的影响。在本文中，我们努力从两个方面减轻飞镖的性能崩溃问题。首先，我们研究了飞镖中超级网的表达能力，然后仅使用训练batchnorm来得出新的飞镖范式设置。其次，从理论上讲，随机特征稀释了跳过连接在超网优化中的辅助连接作用，并使搜索算法专注于更公平的操作选择，从而解决了性能崩溃问题。我们具有随机功能的实例化飞镖和PC-Darts，分别为每个命名的RF-Darts和RF-PCDART构建一个改进的版本。实验结果表明，RF-darts在CIFAR-10上获得\ TextBf {94.36 \％}测试精度（这是NAS Bench-201的最接近最佳结果），并实现了最新的最新最先进的TOP-1从CIFAR-10传输时，ImageNet上\ TextBf {24.0 \％}的测试错误。此外，RF-DARTS在三个数据集（CIFAR-10，CIFAR-100和SVHN）和四个搜索空间（S1-S4）上进行稳健性能。此外，RF-PCDARTS在Imagenet上取得了更好的结果，即\ textbf {23.9 \％} top-1和\ textbf {7.1 \％} top-5 top-5测试错误，超越了代表性的方法，例如单路径，训练免费，，直接在Imagenet上搜索部分通道范例。

translated by 谷歌翻译

FlowNAS: Neural Architecture Search for Optical Flow Estimation

Zhiwei Lin , Tingting Liang , Taihong Xiao , Yongtao Wang , Zhi Tang , Ming-Hsuan Yang

分类：计算机视觉

2022-07-04

现有的光流估计器通常采用通常用于图像分类的网络体系结构作为提取人均功能的编码器。但是，由于任务之间的自然差异，用于图像分类的架构可能是最佳的流量估计。为了解决此问题，我们建议一种名为Falownas的神经体系结构搜索方法，以自动找到用于流估计任务的更好的编码器体系结构。我们首先设计一个合适的搜索空间，包括各种卷积运算符，并构建一个体重共享的超级网络，以有效评估候选体系结构。然后，为了更好地训练超级网络，我们提出了特征对齐蒸馏，该蒸馏利用训练有素的流量估计器来指导超级网络的训练。最后，利用资源约束的进化算法找到最佳体系结构（即子网络）。实验结果表明，从超级网络继承的权重的发现的结构达到了4.67 \％f1-able kitti上的误差，这是RAFT基线的8.4 \％降低，超过了先进的手工制作的型号GMA和AGFlow，同时降低模型的复杂性和延迟。源代码和训练有素的模型将在https://github.com/vdigpku/flownas中发布。

translated by 谷歌翻译

Adversarial Audio Synthesis with Complex-valued Polynomial Networks

Yongtao Wu , Grigorios G Chrysos , Volkan Cevher

分类：机器学习

2022-06-14

音频合成中的时频（TF）表示已越来越多地通过实价网络建模。但是，忽略TF表示的复杂值的性质可能会导致次优性能，并且需要其他模块（例如，用于对阶段进行建模）。为此，我们介绍了称为Apollo的复杂价值的多项式网络，该网络以自然方式集成了这种复杂值的表示。具体而言，阿波罗使用高阶张量作为缩放参数捕获输入元件的高阶相关性。通过利用标准张量分解，我们得出了不同的体系结构并启用建模更丰富的相关性。我们概述了这样的体系结构，并在四个基准测试中展示了它们在音频发电中的性能。重点，阿波罗（Apollo）在音频生成中SC09数据集中的最先进的扩散模型比对抗方法的$ 17.5 \％$改进，而$ 8.2 \％$。我们的模型可以鼓励在复杂领域的其他高效体系结构进行系统的设计。

translated by 谷歌翻译

BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

Tingting Liang , Hongwei Xie , Kaicheng Yu , Zhongyu Xia , Zhiwei Lin , Yongtao Wang , Tao Tang , Bing Wang , Zhi Tang

分类：计算机视觉

2022-05-27

Fusing the camera and LiDAR information has become a de-facto standard for 3D object detection tasks. Current methods rely on point clouds from the LiDAR sensor as queries to leverage the feature from the image space. However, people discovered that this underlying assumption makes the current fusion framework infeasible to produce any prediction when there is a LiDAR malfunction, regardless of minor or major. This fundamentally limits the deployment capability to realistic autonomous driving scenarios. In contrast, we propose a surprisingly simple yet novel fusion framework, dubbed BEVFusion, whose camera stream does not depend on the input of LiDAR data, thus addressing the downside of previous methods. We empirically show that our framework surpasses the state-of-the-art methods under the normal training settings. Under the robustness training settings that simulate various LiDAR malfunctions, our framework significantly surpasses the state-of-the-art methods by 15.7% to 28.9% mAP. To the best of our knowledge, we are the first to handle realistic LiDAR malfunction and can be deployed to realistic scenarios without any post-processing procedure. The code is available at https://github.com/ADLab-AutoDrive/BEVFusion.

translated by 谷歌翻译

Poseur: Direct Human Pose Regression with Transformers

Weian Mao , Yongtao Ge , Chunhua Shen , Zhi Tian , Xinlong Wang , Zhibin Wang , Anton van den Hengel

分类：计算机视觉

2022-01-19

我们提出了一种直接的，基于回归的方法，以从单个图像中估计2D人姿势。我们将问题提出为序列预测任务，我们使用变压器网络解决了问题。该网络直接学习了从图像到关键点坐标的回归映射，而无需诉诸中间表示（例如热图）。这种方法避免了与基于热图的方法相关的许多复杂性。为了克服以前基于回归的方法的特征错位问题，我们提出了一种注意机制，该机制适应与目标关键最相关的功能，从而大大提高了准确性。重要的是，我们的框架是端到端的可区分，并且自然学会利用关键点之间的依赖关系。两个主要的姿势估计数据集在MS-Coco和MPII上进行的实验表明，我们的方法在基于回归的姿势估计中的最新方法显着改善。更值得注意的是，与最佳的基于热图的姿势估计方法相比，我们的第一种基于回归的方法是有利的。

translated by 谷歌翻译

Row-clustering of a Point Process-valued Matrix

Lihao Yin , Ganggang Xu , Huiyan Sang , Yongtao Guan

分类： (统计)机器学习 | 机器学习

2021-10-04

从各种平台收获的结构点处理数据对机器学习界产生了新的挑战。通过施加矩阵结构以重复观察标记点过程，我们提出了一种新的混合模型的多级标记点过程，用于识别观察到的数据中的潜在异质性。具体地，我们研究了一个矩阵，其条目被标记为Log-Gaussian Cox进程和这种矩阵的簇行。提出了一种有效的半参数期预期 - 解决方案与点流程的功能主成分分析（FPCA）进行了模型估计。通过仿真研究和实际数据分析证明了所提出的框架的有效性。

translated by 谷歌翻译

Continual Contrastive Learning for Image Classification

Zhiwei Lin , Yongtao Wang , Hongxiang Lin

分类：计算机视觉 | 人工智能

2021-07-05

对于人工学习系统，随着时间的流逝，从数据流进行持续学习至关重要。对监督持续学习的新兴研究取得了长足的进步，而无监督学习中灾难性遗忘的研究仍然是空白的。在无监督的学习方法中，自居民学习方法在视觉表示上显示出巨大的潜力，而无需大规模标记的数据。为了改善自我监督学习的视觉表示，需要更大和更多的数据。在现实世界中，始终生成未标记的数据。这种情况为学习自我监督方法提供了巨大的优势。但是，在当前的范式中，将先前的数据和当前数据包装在一起并再次培训是浪费时间和资源。因此，迫切需要一种持续的自我监督学习方法。在本文中，我们首次尝试通过提出彩排方法来实现连续的对比自我监督学习，从而使以前的数据保持了一些典范。我们通过模仿旧网络通过一组保存的示例，通过模仿旧网络推断出的相似性分数分布，而不是将保存的示例与当前数据集结合到当前的培训数据集，而是利用自我监督的知识蒸馏将对比度信息传输到当前网络。此外，我们建立一个额外的样本队列，以帮助网络区分以前的数据和当前数据并在学习自己的功能表示时防止相互干扰。实验结果表明，我们的方法在CIFAR100和Imagenet-Sub上的性能很好。与基线的学习任务无需采用任何技术，我们将图像分类在CIFAR100上提高了1.60％，Imagenet-Sub上的2.86％，在10个增量步骤设置下对Imagenet-Full进行1.29％。

translated by 谷歌翻译